练习：知识测验

玩象棋

假设你是一个智能体，你的目标是玩象棋。在每个时间步，你都从游戏中的一组可能的走法中选择任何一个动作。你的对手是环境的一部分；你以自己的走法做出回应，你在下个时间步收到的状态是当你选择下个走法时棋盘的布局。奖励仅在游戏结束时获得，假设如果你获胜了，奖励为 1，失败了，奖励为 -1。

这是一个阶段性任务，当游戏结束时，一个阶段结束。原理是通过玩该游戏很多次，或通过与该环境互动很多个阶段，你越来越善于玩象棋。

需要注意的是，这个问题非常难，因为只有游戏结束时才会获得反馈。如果你失败了（并在阶段结束时获得奖励 -1），不清楚你到底何时出错了：或许你玩的很差，每步都出错了，或者你大部分时间都玩的很好，只是在结束时犯了一个小小的错误。

在这种情形下，奖励提供的信息非常少，我们称这种任务存在稀疏奖励问题。这是一个专门的研究领域，如果感兴趣的话，建议你详细了解一下。

SOLUTION:

移动棋子

SOLUTION:

SOLUTION:

0

假设有这样一款游戏：智能体位于一个迷宫中，尝试找到抵达目的地的最快路径。如果智能体只能随机地探索迷宫，在至少抵达目的地一次之前，它将学不到任何规律。

SOLUTION:

在迷宫中向北移动